3.3 The Three-Way Holdout Method for Hyperparameter Tuning
ホールドアウト法はハイパーパラメタチューニングにも使える
ただし、データを3つに分ける必要がある:train / validation / test
reusing the test set multiple times would introduce a bias and the final performance estimate and likely result in overly optimistic estimates of the generalization performance
trainとtestの2分割でのハイパーパラメタを決める場合への言及
「テストセットを複数回繰り返して使うとバイアスが持ち込まれ、最終的な汎化性能の見積りは過度に楽観的な汎化性能の見積りとなりやすい」
"テストセットが情報をリークしている"
Having a training-validation pair for hyperparameter tuning and model selections allows us to keep the test set "independent" for model evaluation.
「訓練セットと検証セットのペアをハイパーパラメタチューニングに使い、モデル選択では、モデル評価とは"独立"にしておいたテストセットを使う」
ここまでのまとめ的な以下の文
the smaller the dataset, the higher the pessimistic bias and the variance – the sensitivity of a model towards the data is partitioned.
「データセットを小さくすると、悲観的なバイアスとバリアンスは高まる」
「バリアンスとは、分割されたデータ(?)に対するモデルの敏感さ」
The three-way holdout method for hyperparameter tuning and model selection is not the only – and certainly often not the best – way to approach this task.
「ハイパーパラメタチューニングとモデル選択のための3分割ホールドアウト法は、このタスクを扱うのに多くの場合最善ではない方法」
3分割ホールドアウト法の手順(Figure 12)
1. データセットを訓練 / 検証 / テストに3分割
a training set for model fitting, a validation set for model selection, and a test set for the final evaluation of the selected model
2. ハイパーパラメタチューニング
異なるハイパーパラメタ設定のモデルを訓練データで訓練
3. モデル選択
モデルの性能を検証データで評価
汎化性能の見積りを比較し、最良の性能のハイパーパラメタ設定を選ぶ
通例、手順2と3は一緒に行われる
1つのモデルを訓練し性能を計算してから次のモデルへ
4. 訓練セットと検証セットを合わせ、最良のハイパーパラメタ設定で訓練
訓練セットが小さすぎることによる悲観的なバイアスへの対処
5. テストセットを使ってモデルの汎化性能を見積もる
ここでテストセットはモデルが1度も見たことがないデータになっている
6. 訓練/検証/テスト、全てのデータを使ってモデルを訓練
実世界で利用するモデルとする
手順5で汎化性能が見積もれている
後述の懸念もあるため、手順6はオプショナル
the evaluated performance from Step 5 might slightly underestimate the performance of the model fitted in Step 6
「手順5で評価された性能は、手順6で訓練したモデルの性能をわずかに過小評価しているかもしれない」
実運用ではこの懸念はあまり気にされない
理論的には全データで訓練したら(データが増えるので)性能は改善するだけ(ほかは変化しない)
手順6のあとモデルが未知のデータは手元になく(収集しない限り)もう見積もれない